Vous êtes ici:

Exemples d'apprentissage auto

Compartiments

Utilisez ce nœud afin de grouper une colonne numérique spécifiée en une plage de valeurs. Choisissez une colonne numérique en tant que colonne d'entrée, puis sélectionnez la méthode de compartimentation (Écart-type ou Centile) et le nombre total de compartiments puis nommez la colonne résultante.

Dans l'exemple ci-dessous, la colonne d'entrée donné est Price, et la méthode de compartimentation est Écart-type, avec 4 compartiments. Dans la colonne Binning of Price Range (signalée en rouge), chaque ligne est triée dans un des quatre compartiments, en fonction de la colonne Price.

Anomalie

Utilisez ce nœud pour déterminer si un objet constitue une anomalie ou non. Sans Colonnes d'entrée, sélectionnez une colonne numérique. Sélectionnez ensuite l'écart-type, choisissez l'ajout ou non d'une nouvelle colonne pour les anomalies, ou remplacez les anomalies dans la colonne d'entrée avec une moyenne, une extrapolation ou une médiane.

Dans l'exemple suivant, l'entrée est donnée à la colonne Price, et l'écart-type est défini à 2. Les résultats sont affichés dans une nouvelle colonne nommée Outlier Column (en rouge).

Clustering (Canopy)

Utilisez le nœud Canopy Weka pour trier de grands ensembles de données en clusters. Les colonnes d'entrée doivent être numériques. Une fois que vous avez sélectionné les colonnes d'entrée, choisissez le Type de processus d'exécution, et nommez la nouvelle colonne. Le Type de processus d'exécution détermine le nombre de lignes dans l'aperçu.

Dans l'exemple ci-dessous, quatre colonnes d'entrée ont été sélectionnées, et triées en deux clusters (0 et 1) dans la nouvelle colonne Canopy qui a été créée.

Classification (KNN)

KNN Weka peut être utilisé pour faire des prédictions en fonction des entrées et sorties données comme les probabilités d'achat selon le revenu, l'âge et les achats précédents. Ce nœud exige des colonnes d'entrée numériques et une colonne cible nominale. Une fois que vous avez sélectionné les colonnes d'entrée puis la colonne cible requise, (sous Classificateur de résultats), choisissez le nombre minimal de voisins les plus proches, le Type de processus d'exécution, et le nom de la nouvelle colonne.

Dans l'exemple ci-dessous, les entrées données sont Cost, Expenses et Margin, et le Classificateur de Résultats est Returns. La colonne produite indiquera le la quantité de retours prédite en fonction des colonnes d'entrée.

Enregistrer le modèle et définir en tant que cible

Plusieurs algorithmes d'apprentissage automatique peuvent être sauvegardés en tant que modèles d'apprentissage automatique. Sélectionnez Enregistrer modèle pour choisir cette option.

Vous aurez également la possibilité de définir le modèle en tant que cible. Ceci vous permet d'utiliser un algorithme d'apprentissage automatique pour comparer des ensembles de données.

Dans l'exemple ci-dessous, l'algorithme KStar Weka est utilisé pour prédire les retours en fonction des coûts et des dépenses, et le résultat est enregistré en tant que modèle et défini comme cible (en rouge).

Le Modèle d'apprentissage automatique enregistré est ici ajouté à l'ETL. Notez que les colonnes de données dans le Modèle d'apprentissage automatique doivent être du même format que celles du tableau auquel il est relié.

Ceci est utile pour créer un modèle sur des données existantes bien connues et comprises, et utiliser ensuite le modèle sur des données nouvelles. Il est par exemple possible de créer un algorithme d'apprentissage automatique prédisant les comportements d'achat des clients en fonction de leurs comportements de recherche au cours des 2 dernières années, puis de se servir de ces données pour prédire pour combien et quand ils achèteront quoi en fonction de leurs recherches.